摘要。乳腺癌是一个重大的公共健康问题,是女性与癌症相关死亡的主要原因。尽管乳腺癌治疗的进展,药物不遵守仍然是一个主要问题。由于电子健康记录通常不会捕获可能揭示有关药物相关体验的信息的患者报告的结果,因此社交媒体提供了一种有吸引力的资源,可以增强我们对患者治疗经历的理解。在本文中,我们开发了基于自然语言处理(NLP)的方法论,以研究由社交媒体自动策划的乳腺癌队列发布的信息。我们使用基于变压器的分类器根据他们的自我报告的信息在X(Twitter)上鉴定乳腺癌患者/幸存者,我们从其概况中收集了纵向数据。然后,我们设计了一个基于多层规则的模型,以开发与乳腺癌相关的副作用词典,并检测乳腺癌症状的药物使用模式和相关副作用。1,454,637个帖子可从583,962个唯一用户提供,其中62,042个使用我们的基于变压器的模型被发现为乳腺癌成员。198个队列成员提到他莫昔芬的乳腺癌药物是最常见的。我们的副作用词典确定了激素和化学疗法的众所周知的副作用。此外,它发现了一种对癌症和药物的感觉,这可能暗示了副作用或情绪困扰的临床前阶段。这种分析不仅强调了非结构化社交媒体数据中NLP技术的实用性,以识别自我报告的乳腺癌柱,药物使用模式和治疗副作用,而且还对社交数据的丰富性在此类临床问题上的丰富性。
主要关键词